큰 세상 가설과 제한된 합리성

  • 2025-09-28 (modified: 2025-09-29)
  • 저자: AK

큰 세상 가설(The Big World Hypothesis)제한된 합리성 개념을 인공지능이라는 맥락에서 다시 기술한 개념인 것 같다. 그렇다면 잘 만들어진 RL 에이전트는 때론 엉뚱한 오류를 범하기도 하겠지만(Heuristics and biases; 대니얼 카네만) 큰 맥락에서 보면 생각보다 훨씬 합리적이며(Ecological rationality; 게르트 기거렌처) 종종 전문적 수준의 의사결정 능력을 보일 것이다(Naturalistic decision making; 개리 클레인).

LLM은 막다른 길이다?

2025년 9월 27일드와케시 파텔리차드 서튼의 대담(Father of RL thinks LLMs are a dead end)을 들었다. 서튼의 주장은 크게 두 가지로 요약할 수 있다.

  • 인간이 만든 데이터(인간이 작성한 글, 인간이 붙인 레이블)를 쓰지 말아야 한다.
  • 에이전트가 스스로 답을 찾아가는 방식인 강화학습이 답이다.

이는 서튼이 지난 4월에 공개한 글 “경험의 시대에 오신 걸 환영합니다”를 읽으며 이미 접한 주장이었지만, 대담을 들어보니 글로 읽었을 때보다 더 강경하다는 생각이 들었다.

예를 들어 드와케시가 “LLM을 기반으로 해서 RL을 얹어서 online continual learning을 하면 되지 않나요?”하고 물었는데 그것 조차도 단칼에 아니라고 말한다. 인간이 만든 데이터를 먹여주면 당장 성과가 나오니까 불필요하게 인간 데이터에 오래 매달리게 만드는 경향이 생긴다며 어서 빨리 인간 데이터에서 벗어나야 한다는 것.

큰 세상 가설

대담 중 서튼이 “큰 세상 가설(The Big World Hypothesis)“이라는 걸 언급하는 데 그게 뭔지 몰라서 이것저것 찾아보다가 서튼이 공저자로 참여한 논문(The Big World Hypothesis and its Ramifications for Artificial Intelligence; 2024년 6월)을 하나 읽었고, 덕분에 서튼의 입장을 조금 더 잘 이해할 수 있게 됐다.

큰 세상 가설이란, 세상은 너무 크고 복잡한데 에이전트는 너무 작고 제한적이므로 에이전트는 세상에서 겪게 될 모든 문제에 대한 해결책을 완전히 갖출 수 없다는 가설이다. 위 연구에서는 여기에 더하여 추가적인 주장을 한다. 연구의 주장에 따르면 큰 세상 가설은 현재의 컴퓨터가 너무 제한적이기 때문에 일시적으로 존재하는 문제가 아니라 컴퓨터가 아무리 좋아져도 계속 존재할 수 밖에 없다.

이 두 주장(세상의 모든 문제를 에이전트가 정석으로 풀 수는 없고, 이 문제는 앞으로도 계속 존재할 것)을 수용한다면 현재의 LLM 접근은 근본적으로 한계가 있다. 모델의 크기를 아무리 키우고 데이터를 아무리 쏟아부어도 (세상이 너무 크기 때문에) 풀 수 없는 문제가 존재하기 때문이다. 따라서 훈련(training)을 마친 뒤에 세상에 풀어놓는 방식(inference) 대신에 세상에서 자신이 놓인 상황과 당면한 문제에 따라 꾸준히 학습하며 적응하는 방식(online continual learning)이 해결책이다.

제한된 합리성

그런데 “큰 세상 가설”은 달리 말하면 “제한된 에이전트 가설”이라고도 할 수 있다. 갑자기 허버트 사이먼제한된 합리성 개념이 떠오른다. (어쩌면 위 대담의 다른 맥락에서 서튼이 사이먼을 언급했기 때문에 연상이 되었을 수도 있다)

제한된 합리성이란 인간이 무제한의 인지 능력을 가지고 효용(utility)을 극대화하는 에이전트가 아니라, 제한된 인지 능력과 제한된 정보와 제한된 시간 안에서 쓸만한 결정을 해야하는 에이전트라는 개념이다. 즉, 인간의 합리성은 인지 능력, 정보, 시간에 의해 제한된다.

이렇게 보면, 인간은 이미 서튼이 말하는 큰 세상 가설을 염두에 두고 설계된 에이전트이다. 꼭 인간만 그렇다고 말할 필요는 없겠다. 거의 모든(어쩌면 모든) 생명은 각자의 생태계 안에서 제한된 합리성에 따라 행동하는 에이전트이다.

HB, NDM, 생태적 합리성

제한된 합리성을 생각하면 거의 자동적으로 떠오르는 세 가지 개념이 있다. 순서대로 이어보자.

대니얼 카네만휴리스틱과 편향(HB; Heuristics and biases) 학파의 수장이다. 인간은 제한으로 인해 어쩔 수 없이 maximizer가 아니라 satisfier이기 때문에 간혹 최적이 아닌 결정(편향, 실수, 오류 등)을 내리는데, HB 학파는 제한된 합리성으로 인해 발생하는 이러한 문제들을 연구한다.

게르트 기거렌처생태적 합리성(ecoligical rationality)이라는 개념을 다룬다. 인간은 제한이 있는 상황(인지 능력, 정보, 시간의 제한)에서 빠르고 저렴한(fast and frugal) 의사결정을 내리기 위해 다양한 휴리스틱을 쓰는데, 이 휴리스틱이 좁게 보면 비논리적이거나 불합리하게 보이지만 큰 틀에서 보면 사실은 더 합리적인 경우가 많다는 주장이다.

개리 클레인자연주의 의사결정(NDM; Naturalistic decision making) 학파의 수장이다. 그는 고도로 훈련된 전문가들이 급박한 상황에서 순식간에 올바른 판단을 내리는 사례와 그 원리를 연구한다(Recognition-primed decision).

더 큰 모델 vs. 더 나은 훈련 환경

이제 다시 큰 세상 가설로 돌아가서 위 세 개념을 RL 에이전트라는 맥락과 이어보자.

잘 만들어진 RL 에이전트는 때론 엉뚱한 오류를 범하기도 하겠지만(Heuristics and biases; 대니얼 카네만) 큰 맥락에서 보면 생각보다 훨씬 합리적으로 작동할 것이며(Ecological rationality; 게르트 기거렌처) 종종 전문적 수준의 의사결정 능력을 보일 것이다(Naturalistic decision making; 개리 클레인).

인간을 비롯한 대부분의 생명이 진화라는 탐색 알고리즘만으로 큰 세상에서 제한된 합리성만 가지고 살아내는 방법들을 익혔으니 RL 에이전트도 당연히 그럴 것이다. 이 맥락에서 보면 에이전트에게 필요한 건 더 큰 파라메터가 아니라 더 효율적인 해결책(fast and frugal heuristics)을 찾아낼 수 있는 훈련 환경이다.

서튼의 가정을 수용한다면 그렇다.

진화

큰 세상 가설이 맞다면, 그리고 지구 상의 생명체들도 RL 에이전트라고 치자면, 생명들이 쓰고 있는 온갖 휴리스틱들이 어쩌면 선택압이 부족했다거나 적응 기간이 충분치 않아서 어쩔 수 없이 채택한 것들이라기보다 애초에 상당수 문제에 대해서는 그런 류의 휴리스틱을 찾는 게 정답일 수 밖에 없겠다는 결론에도 이르는 것 같다.